近期,康涅狄格大学机械工程系、材料科学研究所高分子系的Ying Li课题组建立了一个机器学习框架用于学习高分子气体分离膜的分子结构与气体渗透率之间的内在联系。从高分子重复单元的化学结构出发,到提取分子指纹和分子描述符,然后训练多任务的随机森林模型和深度神经网络模型,再解释机器学习模型物理意义,最后快速预测大量假想高分子结构的气体渗透率,并使用分子动力学模拟对高性能膜结构的渗透系数和选择系数进行验证(图1)。当把训练得到的可靠的机器学习模型应用于假想的高分子结构时,该模型能够对假想分子进行快速的筛选,从而发现新型的高分子气体分离膜结构。通过筛选超过900万个假想均聚物、梯形聚合物、和聚酰亚胺结构,团队发现了若干新型高分子结构表现出超过 Robeson上限的气体渗透率(图2),并用分子动力学模型对最终筛选出的具有高渗透系数的高分子结构进行了模拟验证(图3)。这项工作突破了传统实验试错的方法进行高分子结构筛选,建立了机器学习框架高效地预测气体分离性能,并筛选出了若干新型高分子膜结构以供未来进一步的实验研究。该工作以“Machine learning enables interpretable discovery of innovative polymers for gas separation membranes”为题发表在《Science Advances》上(Sci. Adv.8, eabn9545 (2022))。文章共同第一作者是加州理工学院化学与化学工程系博士生Jason Yang,康涅狄格大学机械工程系博士后Lei Tao (陶磊)博士,及康涅狄格大学机械工程系博士后Jinlong He (贺金龙) 博士。康涅狄格大学化学与生物分子工程系Centennial Professor of Engineering ,Jeffrey McCutcheon教授作为共同作者对这项工作提供了重要的指导。该研究得到美国空军科学研究局, 美国国家科学基金会, 美国能源部能量效率与可再生能源办公室, 以及3M公司的支持。
该工作是团队有关高分子信息学机器学习模型的最新进展之一。高分子或聚合物的高复杂性给机器学习模型的建立带来了很大挑战,为此团队对高分子信息学中若干问题进行了研究。团队研究了高分子均聚物的化学结构与其玻璃转化温度之间的关联(Patterns. 2021 Apr 9;2(4):100225. ),并测试了超过70种不同机器学习模型的适用性和可靠性(Journal of Chemical Information and Modeling. 2021 Oct 18;61(11):5395-413;Polymers. 2021 Jun 7;13(11):1898.)。除了关注于均聚物、梯形聚合物、聚酰亚胺等的气体分离性能,团队近期还对不同共聚物的结构和单元排列顺序进行的分析(iScience 25, 104585, July 15, 2022)。这一系列工作对于更好的理解与建立高分子的机器学习模型提供了重要的参考。